22.3 구조적 정책 1: 학습 가능한 제어 이득과 파라미터 튜닝 22.3 구조적 정책 1: 학습 가능한 제어 이득과 파라미터 튜닝 22.3.1 직접 제어 입력 생성 vs 제어기 파라미터(PID 게인, 임피던스 등) 추론 22.3.2 가변 임피던스 제어(Variable Impedance Control)를 위한 강화학습 22.3.3 자동 튜닝(Auto-tuning)으로서의 RL: 상황 인지형 게인 스케줄링(Context-aware Gain Scheduling)